▋前言
在執行 AI 專案時,容易不小心就急著「丟資料進模型」,但如果沒有先做 資料探勘 (Exploratory Data Analysis, EDA),最後往往會花更多時間在 debug。EDA 的目的,就像認識新朋友一樣:先搞清楚這份資料的樣子,再來思考怎麼處理和運用。
▋內容
為什麼資料探勘重要?
避免踩雷:提早發現錄音缺失、格式不一致或雜訊過多。
設計前處理策略:例如是否需要降噪、是否要切短音檔。
評估可行性:如果資料不足,可能不適合訓練,只能做微調。
資料探勘怎麼做?(以語音資料為例)
EDA 不只適用文字或數字資料,語音資料同樣能做,常見步驟如下:
檔案層級檢查
檔案數量:每個講者有多少錄音?分布是否平均?
時間長度:語音長短是否落差過大?
檔案格式:取樣率 (sample rate)、聲道數 (mono/stereo) 是否一致?
聲音波形與頻譜檢查
可用工具(如 librosa、matplotlib)畫出 waveform 或 spectrogram。
觀察是否有明顯雜訊、背景聲音、靜音段。
逐字稿與標註檢查
是否有缺漏?標註的時間戳 (time alignment) 與音訊是否一致?
語者標籤是否正確?
統計分析
常用字詞 (可用詞頻統計做文字雲)。
平均語速 (words per minute, WPM)。
語者比例(例如老師 vs 學生的發言比例)。
總結
資料探勘不只是「看數據分布」,在語音專案裡更要結合 聽覺 + 視覺 + 統計,才能全面理解資料品質。
▋下回預告
接下來三天,會分別對 AMI / Switchboard / IEMOCAP 做資料探勘,並解釋這些語料為什麼適合測試我們的系統。明天,先從 AMI Meeting Corpus開始,這是一個多人會議語料,挑戰性比一對一對話更高。
▋參考資料
Exploratory data analysis Wikipedia
A Data Scientist’s Essential Guide to Exploratory Data Analysis